DISAMBIGUACE / DESAMBIGUACE

▲

►

Základní

Disambiguace // Zjednoznačnění, tj. odstranění ↗homonymie (ambiguity), čili jednoznačná interpretace slovního tvaru či skupiny slovních tvarů n. věty na základě kontextu či mimojazykové situace. V korpusové lingvistice se d. u velkých korpusů provádí výhradně automaticky, je součástí morfologické ↗anotace a týká se obecně všech jaz. rovin.

Běžná je morfologická disambiguace, zahrnující ↗lemmatizaci a přiřazení náležitých morfologických údajů slovnímu tvaru na základě kontextu. Např. ve větě Větry vanou od západu se při morfologické interpretaci věty nejprve přiřadí ↗morfologickou analýzou tvaru vanou dvě ↗lemmata a dvě morfologické interpretace: 1. lemma = vana, subst.fem.sg.instr., 2. lemma = vát, 3. os.pl.préz., a poté se při d. vybere náležitá 2. interpretace. Morfologická d. je dvojího typu: (i) ruční či poloautomatická – slouží pouze jako přípravná fáze pro d. plně automatickou (✍Hajič & Hladká, 1997; ✍Hajič & Hladká, 1998), (ii) plně automatická. Automatická morfologická d. se obecně provádí třemi způsoby (srov. ✍Chanod & Tapanainen, 1995; ✍Samuelsson & Voutilainen, 1997):

(a) stochastická disambiguace (statistická disambiguace), realizovaná na základě ↗strojového učení (např. metodou skrytého markovského modelu); (✍Hajič & Hladká, 1997; ✍Hajič & Hladká, 1998; ✍Brants, 2000; ✍Votrubec, 2005),

(b) disambiguace založená na lingvistických pravidlech, která buď vytváří lingvista (✍Tapanainen & Voutilainen, 1994; ✍Karlsson & Voutilainen ad. (eds.), 1995; ✍Chanod & Tapanainen, 1995; ✍Oliva & Hnátková ad., 2000; ✍Květoň, 2006; ✍Petkevič, 2006), n. se automaticky vyvozují z textů (✍Brill, 1992),

(c) hybridní disambiguace, která spojuje výhody přístupů (a) a (b) (✍Hajič & Krbec ad., 2001; ✍Jelínek & Petkevič, 2011). Automatickou morfologickou d. provádí program zvaný ↗tagger v užším smyslu.

Syntaktická disambiguace je součástí ↗parsingu, kdy se odstraňuje syntaktická, ale i morfologická víceznačnost, a identifikují se syntakticky víceznačné syntaktické struktury. Např. v syntakticky víceznačné větě František hrál v altánu šachy se svým ruským přítelem stanoví syntaktická d., že předložková skupina se svým ruským přítelem rozvíjí sloveso hrát jako jeho adverbiále, a nikoli např. substantivum altánu či šachy jako jejich přívlastek.

Při sémantické disambiguaci se řeší ty typy víceznačnosti, které neodstraní d. morfologická ani syntaktická, s výjimkou těch, jež jsou z hlediska vyšší roviny synonymní: např. sémanticky jednoznačné konstrukce typu využívat zařízení (gen.sg./akuz.sg.) n. (gen.pl./akuz.pl.), dělám chyby ve skloňování (věta je sémanticky jednoznačná, ale má více syntaktických interpretací).

↗Morfologická disambiguace je součástí ↗morfologické analýzy. Viz také ↗disambiguace lexikálních významů.

▲

►

Rozšiřující

Literatura

Brants, T. TnT – A Statistical Part-of-Speech Tagger. In Nirenburg, S. (ed.), Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, 2000, 224–231.
Brill, E. A Simple Rule-Based Part-of-Speech Tagger. In Bates, M. & O. Stock (eds.), Proceedings of the Third Conference on Applied Natural Language Processing, 1992, 152–155.
Hajič, J. & B. Hladká. Morfologické značkování korpusu českých textů stochastickou metodou. SaS 58, 1997, 288–304.
Hajič, J. & B. Hladká. Tagging Inflective Languages: Prediction of Morphological Categories for a Rich, Structured Tagset. In COLING-ACL '98. Proceedings of the 36^th Annual Meeting of the Association for Computational Linguistics and 17^th International Conference on Computational Linguistics, vol. I, 1998, 483–490.
Hajič, J. & P. Krbec ad. Serial Combination of Rules and Statistics: A Case Study in Czech Tagging. In Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (ACL 2001), 2001, 260–267.
Chanod, J. P. & P. Tapanainen. Tagging French – Comparing a Statistical and a Constraint-Based Method. In Proceedings of EACL-95. ACL, 1995, 149–157.
Jelínek, T. & V. Petkevič. Systém jazykového značkování současné psané češtiny. In Petkevič, V. & A. Rosen (eds.), Korpusová lingvistika Praha 2011 3. Gramatika a značkování korpusů, 2011, 154–170.
Karlsson, F. & A. Voutilainen ad. (eds.) Constraint Grammar. A Language-Independent System for Parsing Unrestricted Text, 1995.
Květoň, P. Rule-Based Morphological Disambiguation (Towards a Combination of Linguistic and Stochastic Methods). PhD. dis., MFF UK, Praha, 2006.
Oliva, K. & M. Hnátková ad. The Linguistic Basis of a Rule-Based Tagger of Czech. In Sojka, P. & I. Kopeček ad. (eds.), Proceedings of the Text, Speech and Dialogue conference TSD 2000, 2000, 3–8.
Petkevič, V. Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In Šimková, M. (ed.), Insight into the Slovak and Czech Corpus Linguistics, 2006, 26–44.
Samuelsson, Ch. & A. Voutilainen. Comparing a Linguistic and a Stochastic Tagger. In Proceedings of 35th Annual Meeting of the Association for Computational Linguistics and 8th Conference of the European Chapter of the Association for Computational Linguistics, 1997, 246–253.
Tapanainen, P. & A. Voutilainen. Tagging Accurately: Don't Guess if you Know. In Proceedings of 4th Conference on Applied Natural Language Processing, 1994, 47–52.
Votrubec, J. Návrh vhodné sady rysů pro morfologické značkování češtiny. Mgr. dipl., MFF UK, Praha, 2005.

Citace

Vladimír Petkevič (2017): DISAMBIGUACE / DESAMBIGUACE. In: Petr Karlík, Marek Nekula, Jana Pleskalová (eds.), CzechEncy - Nový encyklopedický slovník češtiny.
URL: https://www.czechency.org/slovnik/DISAMBIGUACE / DESAMBIGUACE (poslední přístup: 31. 3. 2025)

CzechEncy – Nový encyklopedický slovník češtiny

Provozuje Centrum zpracování přirozeného jazyka

DISAMBIGUACE / DESAMBIGUACE

Další pojmy: